最近两年,我稍稍去了解了某类观念在传播,继承过程中发生的变化:因传播方向不同,有了地理区隔而产生的;因代代流传,有了时间区隔而产生的。
作为记载这些观念的载体,文字,自然也因地理,时间区隔而产生了许多变化。
以前,文字都是些记载在纸张上的图形。记录,检索并不容易。在了解过去的观念的过程中,我发现,即使到了现在,过去的图书尚没有被很好地数字化。即使有数字化版本,也大多是改写,简化的版本。除了常用文字得到了信息处理技术的支持外,文字仍然还是记录在纸张上的图形。只不过这些纸张变成可以存储在硬盘上的图片了。嗯,图片中的图片,记录和检索仍没什么便利的改善。
文史学界的论著,那么多地采用图档穿插形式来写作。我还见过整本文档,其大多文字是用手写描绘的。2020,仍然是个刀耕火种的时代。
器用不堪,只好暂缓读书,分出些精力来瞧一瞧现在的计算机文字处理现状。
CJK Unified Ideographs
中国,日本,韩国,曾经的越南,都有各自的汉字书写系统,相互间大多共通但也有差异。计算机技术发展后,各国都为各自的书写系统制定了内码。虽然这些书写系统数字化后的外在表现大同小异,但内码却是各行其是,互不兼容。上世纪80年代,有几个项目试图制定一套统一的,多语言的编码方案。其中 ISO10646, Unicode 便是其中影响力较大的两个。
Unicode 初始的目标,只为现代的广泛使用的语言书写系统编制编码,且仅考虑这些系统的字元,而非字形。这一决定首先导致可扩充容量狭小,另外也导致古文字编码,异体,变体缺失。ISO10646 的初始提案则因为设计与实现原因,被业界抵制。这些尝试就这样在小气或不愉快的氛围中开始了。而 ISO10646 也因为被抵制的原因,转而谋求和 Unicode 合作协同发展。
在处理汉字编码时,它俩当年为了尽快收录各国纷繁而不兼容的文字,妥协了一下,违反了之前定下的考虑字元而不考虑字形的策略,采用了“原格分离原则”。如果某国的内码将字分别收录,则不管认同规则,照样收录。这样虽然有些许问题,也算是好事。自认为是妥协了,用了一个偏离原则的方法。实际上,却是用一个更小的错误替换掉原来的想当然的迷思。
但更小的错误也是错误。后来意识到这个方法的问题后,准备放弃这一原则来进行后续的工作。但是呢,如果只按本身的认同规则来看,会拒绝许多异体文字,导致对那些文字没法进行收录。于是两个原则全都丢开一边,进行了汉字的滥收。同意同源的许多字都按不同码位进行收录了。
这下把所有原则丢得一干二净,因祸得福,一路走来,反而从错误之路走向了偏差之路。只是那遍布 Unicode 的,已干涸或正淋漓的泥水,总会让它显得不那么光洁。
开始的工作带来了些许争议,后来的工作带来了些许混乱。以这样务实的“妥协”,换取了收录进度。
好在,后续引入了变体选择子,为以后的亡羊补牢提供了可能。
打字
有了数据支撑后,经过机器学习,我们现在用的输入法比以前的进步了许多,特别是在常用字词的输入上,便利又畅快。但对于更多更广的文字的覆盖支持,还是和以前一样,看不到什么希望呢。
现有的几种形码。设计意图便是文字根据一定规则拆分成一些结构。然后用规则的编码描述这些结构和它们的组合方式。
那么,设计出一种通用的,能应对于所有汉字输入的输入法的充分必要条件就是设计一种通用的汉字描述语言,即“动态组字”的通用性得到证明。
汉字从何而来呢?大家都知道造字六法。特别的,象形字,其本质是形象的描绘,而非组件的组合。“动态组字”的出发点就和很大一部分汉字的本质结构信息相违。
于是,经过了两岸三地数十年的努力。提出了各种方案,如 CDL, HanGlyph, IDS, SCML 等等。特别是 IDS, 因为是 Unicode 内置的支持。所以大家基于此的投入也十分积极。
可惜,既然出发点就已经相违了。大家都发现,并不能用几个基础组件就组出意图的汉字。各地头痛医头,脚痛医脚,提出私有的各种组件来创造了许许多多不相容的方案。譬如,它们的集合体 CHISE IDS 体现的挣扎和无奈真是一览无余。
编辑软件
既然连基本的编码和输入都还未解决,谈这个似乎也没什么意义吧。
数据库
文献的准确收录及索引,自然能带来很多便利。不过现在是没什么指望啦。
Comments
comments powered by Disqus